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Como las computadoras aprenden a ser creativas 


Coordino un equipo de Google que trabaja en inteligencia artificial; es decir, en la 
disciplina de ingenierfa para fabricar computadoras y dispositivos capaces de hacer 
algunas cosas que hacen los cerebros. Y esto hace que nos interese mucho el cerebro real, 
la neurociencia y, especialmente, nos interesan las cosas que hace nuestro cerebro que 
todavfa son muy superiores al rendimiento de las computadoras. 

Historicamente, una de esas areas ha sido la percepcion, el proceso por el cual las cosas 
que hay en el mundo, sonidos e imagenes, pueden convertirse en conceptos en la mente. 
Esto es esencial para nuestro propio cerebro, y tambien es muy util en una maquina. 
Nuestro equipo hace algoritmos de percepcion computacional que permiten encontrar 
imagenes en Google en funcion de lo que hay en ellas. La otra cara de la percepcion es la 
creatividad: convertir un concepto en algo que hay en el mundo. Asi que en el ultimo ano, 
nuestro trabajo en percepcion computacional ha conectado de forma inesperada con el 
mundo de la creatividad y el arte computacionales. 

/ 

Creo que Miguel Angel tenia una vision aguda en esta doble relacion entre la percepcion 

y la creatividad. Esta es una de sus celebres citas: "Cada bloque de piedra tiene una estatua 

/ 

en su interior, y el trabajo del escultor es descubrirla". Pienso que Miguel Angel queria 
decir que creamos al percibir, y que la propia percepcion es un acto de imaginacion y es 
la materia de la creatividad. 

El organo que crea todo el pensamiento, la percepcion y la imaginacion, por supuesto, es 
el cerebro. Y me gustaria empezar con un poquito de historia sobre lo que sabemos del 
cerebro. Porque a diferencia de, por ejemplo, el corazon o los intestinos, realmente no se 
puede decir mucho de un cerebro con solo mirarlo, al menos a simple vista. Los primeros 
anatomistas que exploraron cerebros dieron a las estructuras superficiales de esta cosa 
todo tipo de nombres de fantasia, como hipocampo, que significa "pequeno camaron". 
Pero, por supuesto, eso no nos dice mucho de lo que realmente sucede en el interior. 

La primera persona que, creo, desarrollo una vision de lo que ocurria en el cerebro fue el 
gran neuroanatomista espanol, Santiago Ramon y Cajal, en el siglo XIX, que uso la 
microscopia y tinciones especiales para poder marcar selectivamente en un contraste muy 
alto las celulas individuales en el cerebro, para empezar a entender sus morfologias. Y 
estos son los tipos de dibujos que hizo de las neuronas en el siglo XIX. 

Esto es de un cerebro de un pajaro. Y ya ven esta increible variedad de diferentes tipos de 
celulas, incluso la propia teoria celular era bastante nueva en este momento. Y estas 
estructuras, estas celulas que tienen estas arborizaciones, estas ramas que pueden alcanzar 
muy largas distancias, esto era muy novedoso en esa epoca. Nos recuerdan, por supuesto, 
a los cables. Eso podria haber sido obvio para algunos en el siglo XIX; las revoluciones 



del cableado y de la electricidad se estaban iniciando. Pero en muchos sentidos, los dibujos 
de microanatomfa de Ramon y Cajal, como este, todavfa son, en cierto modo, 
insuperables. 

Un siglo mas tarde todavfa tratamos de terminar el trabajo que empezo Ramon y Cajal. 
Estos son los datos brutos de nuestros colaboradores del Instituto Max Planck de 
Neurociencia. Nuestros colaboradores han tornado imagenes de trozos de tejido cerebral. 
La muestra completa aquf es de 1 mm cubico de tamano, y les estoy mostrando un trozo 
muy pequeno. Esa barra de la izquierda es de aproximadamente una micra. Las estructuras 
visibles son las mitocondrias del tamano de las bacterias. Y estos son cortes consecutivos 
de este diminuto bloque de tejido. solo a efectos de comparacion, el diametro de una hebra 
promedio de pelo es de unas 100 micras. Asf que vemos algo mucho, mucho mas pequeno 
que una sola hebra de cabello. 

Y a partir de este tipo de rebanadas de microscopfa electronica de serie, se pueden hacer 
reconstrucciones en 3D de las neuronas con este aspecto. Son casi del mismo estilo que 
las de Ramon y Cajal. Solo se iluminaron unas pocas neuronas, porque, de lo contrario, 
no se podrfa ver nada aquf. Estarfa tan lleno, tan pleno de estructuras, de cableado de todas 
las neuronas conectadas una a otra. 

Asf Ramon y Cajal se adelanto un poco a su tiempo, y al progreso en la comprension del 
cerebro avanzando lentamente a lo largo de las siguientes decadas. Pero sabfamos que las 
neuronas usan electricidad y por la Segunda Guerra Mundial, la tecnologfa avanzo lo 
suficiente como para empezar a hacer experimentos electricos reales con neuronas vivas 
para comprender mejor como funcionaban. En ese mismo momento se desarrollaban las 
computadoras con la idea de modelar el cerebro, de "maquinas inteligentes", como decfa 
Alan Turing, uno de los padres de la informatica. 

Warren McCulloch y Walter Pitts miraron el dibujo de Ramon y Cajal de la corteza visual, 
que muestro aquf. Esta es la corteza que procesa las imagenes que provienen del ojo. Y 
para ellos, esto parecfa un diagrama de circuito. Y hay gran cantidad de detalles en el 
diagrama de circuito de McCulloch y Pitts que no estan del todo bien. Pero esta idea basica 
de que la corteza visual funciona como una serie de elementos computacionales que pasan 
una informacion de uno al siguiente en cascada, es esencialmente correcta. 

Hablemos por un momento de lo que tendrfa que hacer un modelo para procesar la 
informacion visual. La tarea basica de la percepcion es tomar una imagen como esta y 
decir: "Eso es un pajaro" que es algo muy simple de ver con nuestro cerebro. Pero todos 
Uds. deben entender que para una computadora esto era practicamente imposible hace 
pocos anos. Con el paradigma de la computacion clasica esta tarea no es facil de hacer. 

Entonces lo que pasa entre los pfxeles, entre la imagen del ave y la palabra "pajaro" es 
esencialmente un conjunto de neuronas conectadas entre sf en una red neuronal, como la 
que diagramo aquf. Esta red neuronal podrfa ser biologica, en nuestras cortezas visuales, 



o, en la actualidad, podemos modelar este tipo de redes neuronales en la computadora. Y 
mostrare que aspecto tienen. 

Asf que los pfxeles se puede pensar como una primera capa de neuronas, y asf es, de hecho, 
como funciona el ojo, eso son las neuronas de la retina. Y despues avanzan de una capa a 
la otra, y luego a otra capa de neuronas, todas conectadas por sinapsis de diferentes pesos. 
El comportamiento de esta red se caracteriza por las fortalezas de todas esas sinapsis. 
Estas caracterizan las propiedades computacionales de esta red. Y al final una neurona o 
un pequeno grupo de neuronas da la luz, diciendo, "pajaro". 

Ahora voy a representar esas tres cosas: los pfxeles de entrada, las sinapsis en la red 
neuronal, y el pajaro, la salida, con tres variables: X, W e Y. Hay tal vez un millon o mas 
de X, un millon de pfxeles en la imagen. Hay miles de millones o billones de W, que 
representan los pesos de todas estas sinapsis en la red neuronal. Y hay un numero muy 
pequeno de Y, de salidas que tiene esa red. "Pajaro" son solo seis letras, ^verdad? Asf que 
vamos a suponer que esto es solo una formula simple, X "x" W = Y. Pongo la 
multiplicacion entre comillas porque lo que realmente pasa allf, por supuesto, es una serie 
muy complicada de operaciones matematicas. 

Esa es una ecuacion. Hay tres variables. Y todos sabemos que si uno tiene una ecuacion, 
puede resolver una variable conociendo las otras dos. Asf que el problema de la inferencia, 
es decir, averiguar que la imagen de un pajaro es un pajaro, es este: Y es la desconocida 
y W y X las conocidas. Se conoce la red neuronal, y tambien los pfxeles. Como se puede 
ver, en realidad, es un problema relativamente sencillo. Se multiplica dos veces tres y ya 
esta. Les voy a mostrar una red neuronal artificial que hemos construido recientemente, 
haciendo exactamente eso. 

Esto se ejecuta en tiempo real en un telefono movil, y eso es, por supuesto, sorprendente 
en sf mismo, que los telefonos moviles puedan hacer tantos millones y billones de 
operaciones por segundo. Lo que ven es un telefono que analiza imagenes de un pajaro 
una tras otra. Y, de hecho, no solo dice: "Sf, es un pajaro" sino que identifica las especies 
de pajaros con una red de este tipo. Asf que en ese cuadro, la X y la W son conocidas, y 
la Y es la desconocida. Estoy pasando por alto la parte mas diffcil, por supuesto, que es 
como demonios podemos averiguar la W, como puede el cerebro hacerlo. ^Como 
podrfamos llegar a aprender un modelo de este tipo? 

Este proceso de aprendizaje de despejar W, si lo hacemos con una simple ecuacion en la 
que pensamos en ellos como numeros, sabemos exactamente como hacer eso: 6 = 2 x W, 
asf, se divide por dos y ya esta. El problema estriba en este operador. Por lo tanto, la 
division, hemos usado la division por ser la inversa de la multiplicacion, pero, como acabo 
de decir, la multiplicacion tiene algo de mentira aquf. Esta es una operacion muy 
complicada, nada lineal; que no tiene inversa. Asf que tenemos que encontrar una manera 
de resolver la ecuacion sin un operador de division. Y la manera de hacerlo es bastante 
sencilla. Vamos a aplicar un pequeno truco de algebra, y a mover el 6 hacia el lado derecho 



de la ecuacion. Ahora, todavfa usamos la multiplicacion. Y el cero... pensemoslo como un 
error. Es decir, si hemos resuelto la W de la manera correcta, luego el error sera el cero. 

Y si no lo hacemos del todo bien, el error sera mayor que cero. 

Asf que ahora solo podemos hacer conjeturas para minimizar el error, y en eso las 
computadoras son muy buenas. Asf que ya hemos hecho una aproximacion inicial: ^Y si 
W = 0? Entonces el error es 6. ^Que pasa si W = 1? El error es 4. Y luego, la computadora 
puede correr una especie de Marco Polo, y reducir el error cercano a cero. A medida que 
lo hace, se logra aproximaciones sucesivas a W. Por lo general, nunca llega alii, pero tras 
una docena de pasos, estamos en W = 2.999, que es lo suficientemente aproximado. Y 
este es el proceso de aprendizaje. 

Asf que recuerden que hemos tornado muchas X e Y conocidas para resolver la W por 
medio de un proceso iterativo. De la misma manera como lo hacemos en nuestro propio 
aprendizaje. Tenemos muchas, muchas imagenes de bebes y nos dicen: "Esto es un pajaro, 
esto no es un pajaro". Y con el tiempo, a traves de iteracion, resolvemos W, lo resolvemos 
para esas conexiones neuronales. 

Asf que ahora ya tenemos despejada la X, y la W para resolver Y ; eso todos los dfas, 
percepcion rapida. Entendemos como podemos resolver W, esto es aprendizaje, que es 
mucho mas diffcil, porque tenemos que minimizar errores, usando mucho ejemplos para 
el entrenamiento. 

Y hace un ano, Alex Mordvintsev, de nuestro equipo, decidio experimentar que sucede si 
intentamos resolver X, con una W e Y conocidas. En otras palabras, se sabe que es un 
pajaro, y se cuenta con una red neuronal entrenada en aves, pero la imagen de un 
pajaro? Usando el mismo procedimiento de minimizacion de errores, uno puede hacer eso 
con la red entrenada para reconocer aves, y el resultado es... una imagen de aves. Esta es 
una imagen de aves generada en su totalidad por una red neuronal entrenada para 
reconocer aves, simplemente resolviendo X, en lugar de resolver Y, haciendolo de forma 
iterativa. 

He aquf otro ejemplo divertido. Este fue un trabajo realizado por Mike Tyka en nuestro 
grupo, llamado "animal del desfile". Me recuerda algo a las obras de arte de William 
Kentridge, donde el hace bocetos, los borra, hace bocetos, los borra y crea una pelfcula de 
esta manera. En este caso, Mike varfa Y sobre el espacio de diferentes animales, en una 
red disenada para reconocer y distinguir animales diferentes unos de otros. Y se obtiene 
esta extrana metamorfosis de un animal a la Escher. 

Aquf el y Alex han intentado reducir las Y a un espacio de solo dos dimensiones, logrando 
un mapa fuera del espacio de todas las cosas reconocido por esta red. Realizar este tipo de 
sfntesis o la generacion de las imagenes sobre toda la superficie, variando Y sobre la 
superficie, se hace una especie de mapa, un mapa visual de todas las cosas que la red sabe 
reconocer. Los animales estan todos aquf; el armadillo esta justo aquf. 



Se puede hacer esto con otros tipos de redes. Esta es una red disenada para reconocer 
caras, para distinguir una cara de otra. Y aqui ponemos en Y una que dice "yo", mis 
propios parametros cara. Y cuando esto resuelve X, genera esta imagen de mi, alocada, 
tipo cubista, psicodelica, como un cuadro surrealista, desde multiples puntos de vista a la 
vez. Aparecen multiples puntos de vista a la vez porque la red esta disenada para descartar 
la ambigiiedad de una cara en una postura u otra, con un tipo de luz, u otro. A1 hacer este 
tipo de reconstruccion, si no se usa alguna imagen de guia o estadisticas de guia, entonces 
se obtiene una confusion de diferentes puntos de vista, porque es ambigua. Esto es lo que 
sucede si Alex usa su propia cara imagen como guia durante ese proceso de optimizacion 
para reconstruir mi propia cara. Asi se puede ver que no es perfecto. Todavia hay mucho 
trabajo por hacer sobre como mejorar el proceso de optimizacion. Pero ya se empieza a 
ver algo mas parecido a una cara coherente, usando mi propia cara como guia. 

No tiene que comenzar con un lienzo en bianco o con ruido bianco. Cuando se esta 
resolviendo X, se puede comenzar con una X, que en si es ya una imagen. En eso consiste 
esta pequena demostracion. Esta es una red disenada para categorizar todo objeto, 
estructuras hechas por humanos, animales... Aqui empezamos con una imagen de las 
nubes, y la optimizamos, basicamente, esta red averigua que se ve en las nubes. Y cuanto 
mas tiempo uno pasa mirando, mas cosas tambien se veran en las nubes. Tambien es 
posible usar la red para alucinar, obteniendo cosas bastante locas. 

O, Mike ha hecho otros experimentos donde se detiene la imagen de la nube, la alucina, 
la amplia, la alucina, la amplia... Y de esta manera, se obtiene una especie de estado de 
fuga de la red, supongo, o una especie de asociacion libre, en el que la red se come su 
propia cola. Asi que cada imagen es ahora la base para "^Que pienso que vere ahora? ^Que 
pienso que vere ahora? ^Que pienso que vere ahora?" 

Mostre esto por primera vez en publico a un grupo en una conferencia en Seattle llamada 
"Educacion Superior", esto fue justo despues de que la marihuana fuera legalizada. 

Asi que me gustaria terminar rapidamente con solo senalar que esta tecnologia no esta 
limitada. He mostrado ejemplos puramente visuales porque son muy divertidos. Pero no 
es una tecnologia puramente visual. Nuestro artista colaborador, Ross Goodwin, tiene 
experimentos que implican a una camara tomando una foto, y luego una computadora en 
su mochila, escribe un poema usando redes neuronales, basado en el contenido de la 
imagen. Y que la red neuronal de poesia ha sido entrenada en un gran corpus de poesia 
del siglo XX. Y la poesia es, ya saben, creo que no esta tan mal, en realidad. 

✓ 

Para concluir, creo que Miguel Angel tenia razon; la percepcion y la creatividad estan 
conectadas muy mtimamente. Acabamos de ver redes neuronales totalmente capacitadas 
para discriminar, o para reconocer cosas diferentes en el mundo, que pueden ejecutarse a 
la inversa, para generar nuevas cosas. Algo que me sugiere esto no es solo que Miguel 
Angel realmente vio la escultura en los bloques de piedra, sino que cualquier criatura, 



cualquier ser, cualquier alienfgena que es capaz de percibir actos de ese tipo tambien es 
capaz de crear porque en ambos casos se usa la misma maquinaria. 

Ademas, creo que la percepcion y la creatividad no son absolutamente unicamente 
humanas. Ya tenemos modelos computacionales que pueden hacer exactamente estas 
cosas. Y que no deberfa ser sorprendente; el cerebro es computacional. 

Y, finalmente, la computacion empezo como un ejercicio de diseno de maquinas 
inteligentes. Fue modelada siguiendo la idea de como podrfamos hacer maquinas 
inteligentes. Y, finalmente, se estan empezando a cumplir algunas de las promesas de 
aquellos pioneros, como Turing, von Neumann McCulloch y Pitts. Y creo que la 
informatica no es solo contabilidad o jugar al Candy Crush y esas cosas. Desde el 
principio, se diseno siguiendo el modelo de nuestra mente. Y eso nos da la capacidad de 
comprender mejor nuestra propia mente y de ampliarla. 

Muchas gracias. 



